分配转移或培训数据和部署数据之间的不匹配是在高风险工业应用中使用机器学习的重要障碍,例如自动驾驶和医学。这需要能够评估ML模型的推广以及其不确定性估计的质量。标准ML基线数据集不允许评估这些属性,因为培训,验证和测试数据通常相同分布。最近,已经出现了一系列专用基准测试,其中包括分布匹配和转移的数据。在这些基准测试中,数据集在任务的多样性以及其功能的数据模式方面脱颖而出。虽然大多数基准测试由2D图像分类任务主导,但Shifts包含表格天气预测,机器翻译和车辆运动预测任务。这使得可以评估模型的鲁棒性属性,并可以得出多种工业规模的任务以及通用或直接适用的特定任务结论。在本文中,我们扩展了偏移数据集,其中两个数据集来自具有高社会重要性的工业高风险应用程序。具体而言,我们考虑了3D磁共振脑图像中白质多发性硬化病变的分割任务以及海洋货物容器中功耗的估计。两项任务均具有无处不在的分配变化和由于错误成本而构成严格的安全要求。这些新数据集将使研究人员能够进一步探索新情况下的强大概括和不确定性估计。在这项工作中,我们提供了两个任务的数据集和基线结果的描述。
translated by 谷歌翻译
大型图像数据集的有限可用性是在医学中开发准确宽大的机器学习方法的主要问题。数据量的限制主要是由于使用不同的采集协议,不同的硬件和数据隐私。同时,培训小型数据集的分类模型会导致模型的较差质量差。为了克服这个问题,通常使用不同出处的各种图像数据集的组合,例如,多站点研究。然而,如果附加数据集不包括任务的所有类别,则可以将分类模型的学习偏置到设备或获取地点。磁共振(MR)图像特别是磁共振(MR)图像的情况,其中不同的MR扫描仪引入限制模型性能的偏差。在本文中,我们提出了一种新颖的方法,该方法学习忽略图像中存在的扫描仪相关的特征,同时学习与分类任务相关的功能。我们专注于真实世界的情景,只有一个小型数据集提供所有类的图像。我们通过对潜伏空间引入特定的额外限制来利用这种情况,这引起了对疾病相关而非扫描仪的特征的关注。我们的方法学会在多站点MRI数据集上忽略优于艺术域的最新域适应方法,在多发性硬化患者和健康受试者之间的分类任务上。
translated by 谷歌翻译